面向 人 脸 视 频 防伪 检测 的 大 规模 中 文 数据 评测 基准 - 
WHE, EEmL 高 克 威 RAY ER ARE! RAR? Ayn 


!( 浙 江 大 学 软件 学 院 ,浙江 宁波 315103) 
"(浙江 大 学 计算 机 科学 与 技术 学 院 , 浙 江 杭州 ”310007) 
(中国 科学 院 信息 工程 研究 所 ,北京 ”100093) 

“(浙大 城市 学 院 计算 机 与 计算 科学 学 院 ,浙江 杭州 ”310015) 
通讯 作者 : AA, E-mail: zunleifeng@zju.edu.cn 


摘要 : 随 着 AIGC 技术 的 快速 发 展 ,逼真 的 伪造 人 脸 视 频 已 经 可 以 欺骗 人 类 视觉 感知 .因此 ,大 量 人 脸 防伪 检测 算法 
被 提出 用 于 伪造 人 脸 视频 的 检测 .然而 如 何 有 效 评估 这 些 伪造 检测 算法 的 有 效 性 与 可 应 用 性 , 仍 面临 着 诸多 挑战 .为 
有 效 推 动人 脸 防 伪 检 测 成 效 的 量化 评估 与 防伪 检测 技术 迭代 发 展 ,本 文 提出 了 一 项 面向 人 脸 视 频 防伪 检测 的 大 规 
模 中 文 数据 评测 基准 ,发 布 了 全 球 首 个 CHN-DF 中 文 数据 集 (https://github.com/HengruiLou/CHN-DF). 填 补 了 人 脸 视 
x md cT 基准 的 流程 ,并 
通过 实验 验证 了 CHN-DF 数据 集 的 复杂 性 和 贴近 真实 场景 水 平 .期 望 该 评测 基准 能 帮助 研究 人 员 构 建 更 实用 有 效 
的 人 脸 视 频 防 伪 检 测 模型 ,推动 防伪 检测 领域 技术 发 展 .同时 ,本 文 指 出 了 准 数据 集 和 防伪 
检测 Sn e 的 挑战 ,提出 了 未 来 可 能 的 研究 方向 ,为 推动 人 脸 视 频 防 伪 检 测 技术 发 展 提供 了 有 益 思 路 
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Abstract: With the rapid development of AIGC (Artificial Intelligence Generated Content) technology, hyper-realistic forged facial videos 
have become capable of deceiving human visual perception. As a result, a significant number of facial anti-forgery detection algorithms 
have been proposed for the identification of these fake facial videos. However, effectively evaluating the efficacy and applicability of 
these forgery detection algorithms remains a substantial challenge. To effectively promote the quantitative assessment of facial 
anti-forgery detection performance and the iterative development of anti-forgery technologies, this paper introduces a large-scale Chinese 
data benchmark for facial video  anti-forgery identification and releases the world's first CHN-DF Chinese dataset 
(https://github.com/HengruiLou/CHN-DF), filling the gap in facial video anti-forgery datasets in terms of large-scale Chinese data. The 
paper details the process of constructing the CHN-DF dataset and the Chinese data evaluation benchmark and validates the complexity 
and realism of the CHN-DF dataset through experiments. It is hoped that this evaluation benchmark will assist researchers in building 
more practical and effective facial video anti-forgery detection models, thereby advancing the technology in the field of anti-forgery 
detection. Additionally, this paper addresses the challenges posed by Chinese face video anti- forgery detection benchmark datasets and 
anti-forgery detection technology. It also proposes potential future research directions, offering valuable insights to advance the 
development of face video anti-forgery detection technology. 
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NEE 等 :面向 人 脸 视 频 防伪 检测 的 大 规模 中 文 数据 评测 基准 

为 了 应 对 数字 经 济 中 数字 智能 面临 的 挑战 ,生成 式 人 工 智 能 (AIGC)D 应 运 而 生 . 通 过 基于 用 户 输入 的 关键 
词 或 需求 生成 内 容 ,AIGC 具有 巨大 潜力 来 支持 不 同 应 用 .例如 ,依据 当前 维度 的 属性 信息 ,AIGC 可 以 将 数字 内 
容 从 一 个 维度 映射 到 另 一 个 维度 ,实现 对 现实 世界 内 容 的 智能 增强 和 智能 转译 ,从 而 极 大 地 推动 图 像 超 分 、 语 
音 转 字幕 以 及 文字 转 语音 等 自动 化 与 执行 效率 .通过 对 当前 内 容 的 理解 和 属性 控制 ,AIGC 可 以 修改 视频 内 容 ， 
直接 促进 视频 场景 剪辑 、 虚 拟 试 衣 以 及 人 声 分 离 等 视频 内 容 理解 技术 的 产业 应 用 .在 智能 数字 内 容 生成 方 
W.AIGC 依托 其 从 海量 数据 中 学 习 抽 象 概念 、 通 过 概念 的 组 合生 成 全 新 内 容 的 能 力 ,使 得 图 像 生成 (AI 绘画 ) 
有 
况 下 了 解 真相 和 信任 这 些 信 息 变 得 越 来 越 困 难 .AIGC 的 发 展 无 疑 会 造成 人 脸 图 片 生成 和 人 脸 视 频 生成 领域 的 
信息 真实 性 验证 困难 外 ,对 当今 社会 造成 安全 威胁 甚至 是 挑战 .例如 ,在 2022 年 的 俄 乌 冲突 爆发 阶段 ,网 络 上 流 
传 的 乌克兰 总 统 泽 连 斯 基 要 求 军队 投降 的 视频 片段 以 及 俄罗斯 总 统 普 京 宣布 战争 结束 的 深度 伪造 视频 引发 了 
双方 国家 甚至 全 球 社会 的 恐慌 .在 2023 年 4 月 ,美国 共和 党 发 布 了 30 秒 的 深度 伪造 竞选 广告 ,展示 了 一 旦 拜 登 
赢得 2024 年 竞选 可 能 带 来 的 灾难 性 场景 .这 类 对 政治 人 物 的 深度 伪造 视频 通过 形象 抹黑 和 内 容 算 改 ,可 能 影响 
国家 政治 制度 甚至 引发 国际 战争 危机 .此 外 ,社交 身份 的 伪造 导致 各 类 诈骗 现象 不 断 增多 .一 些 不 法 分 子 利用 深 
度 伪造 技术 塑造 虚假 的 个 人 形象 ,在 聊天 室 中 通过 面孔 和 声音 模拟 与 “同龄 ”儿童 进行 数字 对 话 ,以 获取 未 成 
年 人 的 信任 ,从 而 对 他 们 的 安全 构成 威胁 . 

为 了 应 对 人 脸 视频 深度 伪造 技术 的 滥用 和 潜在 危害 ,工业 界 和 学 术 界 的 大 量 研究 人 员 提 出 了 视频 防伪 检 
测 技术 B-19. 与 此 同时 ,人 脸 视频 防伪 检测 数据 集 作 为 人 脸 视 频 防伪 检测 技术 发 展 的 基石 ,能 够 有 效 推动 人 脸 视 
频 防伪 检测 技术 高 质量 发 展 .为 了 构建 一 个 高 效 且 可 用 的 人 脸 视 频 防伪 检测 方法 ,需要 大 量 多 样 化 且 高 允 真 的 
人 脸 视 频 防 伪 检 测 数据 样本 .因此 ,最 近 研 究 人 员 利 用 深度 伪造 方法 创建 了 许多 不 同 的 人 脸 视 频 防伪 检测 数据 
集 01-201, 则 在 帮助 研究 人 员 训 练 和 评估 他 们 的 视频 防伪 方法 .然而 ,目前 仍然 缺乏 用 于 训练 多 模 态 防伪 方法 的 多 
模 态 深度 伪造 基准 .现存 的 人 脸 视 频 防伪 检测 数据 集 大 多 数 忽视 了 音频 深度 伪造 和 多 模 态 深度 伪造 .虽然 存在 
一 些 同时 关注 音频 和 视觉 信息 的 多 模 态 人 脸 视频 防伪 检测 数据 集 ,但 在 深度 伪造 的 音频 和 视频 方面 通常 存在 
数量 和 方法 上 的 不 平衡 , 且 拍 摄 场景 单一 ,这 限制 了 视频 防伪 模型 学 习 更 一 般 性 的 多 模 态 信息 特征 ,进一步 限制 
了 视频 防伪 方法 的 发 展 . 此 外 , 现 有 的 人 脸 视 频 防伪 检测 数据 集 主 要 集中 在 欧美 人 脸 视 频 上 ,缺乏 亚洲 人 脸 视 频 
数据 样本 ,面向 人 脸 视频 防伪 检测 的 大 规模 中 文 数据 仍 是 空白 . 
为 了 弥补 视频 防伪 数据 集中 多 模 态 数据 的 缺乏 和 亚洲 人 脸 视 频数 据 样 本 不 足 , 尤 其 是 中 文 数据 的 空白 ,本 
文 构建 全 球 首 个 面向 人 脸 视 频 防伪 检测 的 大 规模 中 文 数据 集 一 CHN-DF.CHN-DF 是 最 大 的 公开 视频 防伪 数据 
集 ,样本 量 达 到 426087. 基 于 当前 多 种 高 逼真 生成 AIGC 技术 ,CHN-DF 数据 集 履 盖 了 多 样 的 取材 场景 并 拥有 庞 
大 的 视频 数据 样本 量 .数据 源 自 CN-CVSP0 与 CMLRC2 ,包含 国 内 电视 新 闻 和 网 络 演讲 节目 中 收集 到 的 2540 名 
说 话 人 发 言 的 视频 片段 ,视频 拍摄 场景 超过 2000 个 ,伪造 视频 则 从 音频 与 视觉 信息 两 方面 采用 Mockingbird, 
FOMM!41, FSGANI?5], Motion-cos!2*!, Simswap""!, Wav2LipP8!D] J£ coqui-TTSU?L i+ 7 种 主流 深度 伪造 方 
法 ,以 确保 其 内 容 足 够 复杂 和 多 样 化 .为 了 搭建 面向 人 脸 视频 防伪 检测 的 评测 基准 ,选用 多 模 态 视频 防伪 技术 领 
域 中 主流 的 11 种 基线 方法 人 eR 页 域 已 有 数据 集 检测 
结果 的 对 比 ,分 析 了 现 有 防伪 检测 技术 优 劣 与 不 足 , 验 证 CHN-DF 数据 集 的 多 样 性 与 实用 性 . 

本 文 第 1 节 介 绍 视 频 深度 防伪 数据 集 相关 工作 第 2 节 介 绍 数据 集 CHNLDE 所 括 数据 收入 和 诗 成 菠 3 书 
介绍 本 文 构 建 数据 集 的 基准 实验 ,通过 实验 结果 验证 了 本 文 构建 数据 集 的 有 效 性 ,第 4 节 介 绍 当 下 人 脸 视频 防 
伪 检 测 数据 集 与 防伪 检测 技术 面临 挑战 及 发 展 方向 ,最 后 总 结 全 文 . 


1 视频 深度 防伪 数据 集 相关 工作 


AIGC 发 展 带 来 的 视频 内 容 生成 技术 变革 ,增加 了 检测 人 脸 伪 造 视频 的 紧迫 性 , 近 些 年 来 学 术 界 和 工业 界 
的 许多 研究 人 员 致 力 于 创建 人 脸 视频 防伪 检测 数据 集 , 开 源 了 部 分 数据 集 以 促进 该 领域 的 研究 .本 节 将 对 人 脸 
视频 防伪 检测 数据 集 的 现状 进行 梳理 ( 见 表 1). 


i 


表 1 视频 深度 防伪 数据 集 汇总 
mmm "S 真实 视频 伪造 视频 视频 说 话 人 伪造 方法 真实 数据 
数据 集 xn Rae OR ED T. et ad 
i 数量 数量 总 数 总 数 量 来 源 
UADFV 视频 2018 49 49 98 49 1 YouTube 
DeepfakeTIMIT 视频 2018 640 320 960 32 2 VidTIMIT 
FF++ 视频 2019 1000 4000 5000 未 知 4 YouTube 
Celeb-DF 视频 2019 590 5639 6229 59 1 YouTube 
DeeperForensics 视频 2020 50000 10000 60000 100 1 演员 拍摄 
WildDeepfake 视频 2020 3805 3509 7314 未 知 未 知 网 络 收集 
DFDC 视频 + 音频 2020 23654 104500 128154 960 8 演员 拍摄 
KoDF 视频 + 音频 2021 62166 175776 237942 403 6 演员 拍摄 
ForgeryNet 视频 2021 99630 121617 221247 5400+ 8 VoxCeleb2 等 
FakeAVCeleb 视频 + 音频 2022 500 19500 20000 500 4 VoxCeleb2 
CHN-DF 视频 + 音频 2023 213187 212900 426087 2540 7 CN-CVS/CMLR 
现 有 的 人 脸 视频 防伪 检测 数据 集 主 要 分 为 两 类 :第 一 类 数据 集 借助 视觉 层面 的 单 模 态 伪造 方法 ,通过 修改 
或 交换 人 类 的 面部 特征 信息 达到 人 脸 伪造 的 效果 ; 男 一 类 数据 集 伪造 方法 结合 视觉 与 听觉 层面 的 伪造 手段 ,对 
于 一 段 真实 视频 ,通过 视觉 或 听觉 特征 信息 的 多 模 态 修改 实现 视频 信息 的 复杂 伪造 ,此 类 伪造 方法 伪造 角度 与 
方式 多 样 ,更 贴 合 人 脸 视频 恶意 伪造 的 现实 情况 ,是 视频 深度 防伪 数据 集 的 发 展 趋势 .但 要 求 伪造 手段 多 样 且 过 
程 复杂 ,因此 此 类 数据 集 数据 样本 匮乏 . 


1. 基于 视觉 的 单 模 态 人 脸 视频 防伪 检测 数据 集 


€ UADFVI! 


集 ,数据 用 


FakeApp 


500 像素 .作为 早 
产生 的 假 视频 
€  DeepfakeTIMIT!? 


aur 


1UADFV Wz 
LA 98 个 视频 ,其 


应 用 程序 Bali 


m 


期 人 


行 伪造 生成 出 49 个 假 视频 . 视 4 
答 视 频 防伪 检测 数据 集 ,UADFV 4 
PP 人 脸 扭 曲 变 化 及 异常 动作 很 明显 ， 
:DeepfakeTIMIT 同样 是 在 2018 4 


约 州 立 大 学 研究 人 员 在 2018 年 发 布 的 第 一 个 用 于 人 脸 视 频 防伪 检测 的 数据 
H 49 个 是 从 YouTube 收集 到 的 真实 视频 ,伪造 视频 则 是 通过 使 用 
AER BE 11.14 秒 ,平均 分 辨 率 为 294 xX 


数量 和 质量 上 都 有 限制 ,由 单一 的 FakeApp 


因此 很 容易 检测 到 . 
F 引 入 的 另 一 个 针对 深度 伪造 检测 的 人 脸 视频 防 


伪 检 测 数 据 集 ,该 数据 集 的 真实 数据 来 源 于 32 名 说 话 人 拍摄 的 640 个 视频 ,每 个 说 话 人 视频 集中 包含 
10 个 高 分 辩 率 的 DeepFake-TIMIT-HQ 视频 和 10 个 低 分 辩 率 的 DeepFake-TIMIT-LQ 视频 . 假 视 频 通 


过 面部 交换 技术 交换 说 话 人 间 面 部 信息 得 3 


只 有 4 秒 长 且 合 成 的 视频 往往 是 模糊 的 . 


@ ”FF++03:FF+ 采 用 4 种 伪造 手段 DeepfakeB0,Face2face 


视频 伪造 方法 既 包 含 了 基 了 


到 .然而 ,同样 


于 早期 视频 伪造 方法 的 局 限 性 ,生成 视频 


32,FaceswapB3 和 NeuralTexturesB4, 是 第 一 个 假 


数据 集 包 含 来 自 YouTube 的 1000 个 真实 视频 和 4000 
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法 合成 的 伪造 视频 . 


度 伪造 检测 方法 在 压 毕 
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时 参数 组 成 的 高 性 
€  Celeb-DF'^:£[ X} U 


者 视频 和 未 压缩 视频 上 的 性 
神经 结构 进行 最 优 训练 . 
l| DeepfakeTIMIT 等 生成 视频 的 质量 不 佳 和 算 改 痕迹 粗 烽 的 问 
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F 深度 学 习 的 深度 伪造 方法 ,同时 也 涵盖 了 基于 计算 机 图 形 学 的 伪造 方法 . 
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于 计算 机 图 形 学 和 两 种 基于 深度 学 习 的 方 


比 外 ,数据 集 划分 成 两 个 质量 级 别 , 即 未 压缩 格式 和 H264 压缩 格式 ,可 
能 .然而 ,FF+ 的 大 小 和 多 样 性 仍然 不 足 , 导 致 难以 对 
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于 评估 深 


题 ,Celeb-DF 对 视频 伪造 方法 进行 了 改进 ,提供 了 更 高 质量 的 视频 .数据 集中 的 真实 视频 源 自 You Tube 


CREE 


中 的 59 位 说 话 人 的 590 个 视频 ,并 使 用 改进 的 deepfake 技术 生成 了 5639 个 虚假 视频 .然而 ,该 数据 集 


乃 存 在 伪造 方法 单一 的 问题 ,不 适用 于 现 5 
€ DeeperForensics(151: 数 据 集中 的 真实 视频 

面部 交换 伪造 方法 上 
1000 个 假 视频 .此 外 
和 伪造 视频 进行 数 ] 


Kf 1000 个 


没有 像 其 


他 数 
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R4 


明显 大 


EXT 
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数 ] 


实 世 界 中 过 至 
源 自 100 名 付费 演员 的 录制 ,其 中 采用 了 FF++ 中 的 视频 作为 
标 视 频 .通过 将 每 个 源 身份 与 10 个 目标 视频 进行 面部 交换 ,合成 了 
,DeeperForensics 并 没有 采用 其 他 的 合成 方法 ,而 是 利用 7 种 扰动 方法 对 真实 视频 
以 增加 多 样 性 .通过 这 种 方式 创建 了 50000 个 真实 视频 和 10000 个 伪造 视 
F 早期 的 人 脸 视 频 防伪 检测 


| 的 挑战 . 


当前 人 脸 伪造 技术 广泛 的 订 


PII, 


据 集 ,并 且 更 具 多 样 性 ,但 是 DeeperForensics 还 


因此 DeeperForensics 的 学 术 效 能 尚未 完全 


NRE 等 :面向 人 脸 视 频 防伪 检测 的 大 规模 中 文 数据 评测 基准 
建立 . 
e Wege 9: 面 对 早期 人 脸 视频 防伪 检测 数据 集 存 在 缺少 内 容 多 样 性 和 视频 源 低 质量 的 问 
题 ,WildDeepfake 从 互联 网 上 收集 真实 和 深度 伪造 的 样本 ,包含 了 视频 中 提取 的 面部 动作 序列 ,在 人 工 
去 除 没 有 对 应 真实 人 脸 的 视频 后 ,真实 视频 数量 为 3805, 伪 造 视频 数量 为 3509. 视 觉 效果 更 贴 合 真实 
生活 场景 ,但 数据 量 不 足 导 致 在 训练 高 性 能 神经 网 络 结构 时 存在 局 限 . 
€ ForgeryNet07: 目 前 为 止 是 基于 视觉 的 人 脸 视频 防伪 检测 数据 集中 最 大 规模 的 数据 集 , 提 出 了 包括 时 
序 伪造 定位 、 空 间 伪造 定位 等 多 项 任务 ,ForgeryNet 采用 8 种 深度 伪造 方法 ,生成 121617 个 伪造 视频 . 
视频 总 量 达 到 包含 221247, 并 且 视 频带 有 丰富 的 数据 标注 . 
12 基于 视觉 与 听觉 的 多 模 态 人 脸 视频 防伪 检测 数据 集 
e  DFDCUS:DFDC 是 第 一 个 在 视频 中 包含 伪造 音频 的 数据 集 , 起 初 作 为 Facebook 发 布 的 同名 DFDC 竞 
赛 的 数据 集 , 包 含 5250 个 视频 .之 后 经 过 数据 补充 真实 视频 达到 23654 个 ,伪造 视频 数据 量 达到 
104500. 为 了 保证 数据 集 的 多 样 性 ,真实 视频 源 取 自 不 同 的 环境 设置 ,伪造 视频 则 由 八 种 不 同 的 方法 
生成 .听觉 模 态 上 仅 进 行 音频 交换 ,并 没有 使 用 音频 伪造 方法 .标签 仅 包含 真 假 两 个 类 别 ,没有 区 别 伪 
造 视频 中 视觉 伪造 与 听觉 伪造 . 
€  KoDFU?:KoDF 是 目前 在 基于 视觉 与 听觉 的 多 模 态 人 脸 视 频 防伪 检测 数据 集 领域 中 最 大 的 公开 数 ] 
集 ,包含 采用 6 种 伪造 方法 伪造 的 17576 个 假 视频 和 62166 个 真实 视频 .视频 中 403 说 话 人 大 多 是 埋 
国人 ,是 为 了 平衡 在 现 有 的 防伪 数据 集中 亚洲 人 口 数 据 不 足 的 首次 努力 .然而 KoDF 在 处 理 视觉 与 0 
觉 信息 时 仅 进行 音频 与 人 脸 层 部 动作 的 同步 伪造 ,并 没有 使 用 声音 克隆 、 声 音 转换 等 深度 语音 伪造 
€ FakeAVCeleb20: 首 个 同时 包含 伪造 视频 和 伪造 音频 的 人 脸 视频 防伪 检测 数据 集 ， SAK 
防伪 检测 常用 的 评测 数据 集 , 从 VoxCeleb2 数据 集 选 择 了 500 个 真实 视频 ,利用 了 
DeepFaceLabB5 和 FSGAN 伪造 面部 信息 ,利用 SV2TTS69 伪 造 音 频 信息 ,使 用 Wav2Lip 完 
成 音频 与 人 脸 层 部 动作 的 伪造 ,生成 了 19500 个 伪造 视频 . 


2 CHN-DF 人 脸 视 频 防伪 检测 数据 集 


CHN-DF 人 脸 视 频 防伪 检测 数据 集 是 首 个 面向 人 脸 视频 防伪 检测 的 大 规模 中 文 数 据 集 ,该 数据 集 包 含 视 
觉 与 听觉 两 个 模 态 的 信息 .本 节 首 先 介绍 CHN-DF 数据 集 的 真实 视频 获取 和 伪造 视频 生成 ,然后 详细 描述 
CHN-DF 数据 集 的 基本 属性 信息 . 
2.1 真实 视频 

为 了 保障 CHN-DF 数据 集 的 场景 多 样 性 与 内 容 复 杂 性 ,CHN-DF 真实 视频 源 于 目前 最 大 的 公开 中 文 视听 
多 模 态 数据 集 CN-CVS 以 及 中 文 唇 语 数据 集 CMLR.CN-CVS 总 共有 超过 2500 名 说 话 人 ,数据 总 条 数 超过 二 十 
万 ,总 时 长 超过 300 小 时 ,CHN-DF 选取 其 中 Speech 部 分 的 2529 名 说 话 人 视频 ,选取 的 视频 总 量 接近 20 
万 ;CMLR 数据 集 包 含 了 2009 年 6 月 至 2018 年 6 月 的 新 闻 联 播 视频 ,数据 集 包 含 由 11 位 主持 人 所 表述 的 共 
102076 个 视频 ,CHN-DEF 数据 集 对 CMLR 数据 集 进 行 了 筛选 ,达到 保持 说 话 人 之 间 视 频数 据 量 平衡 的 目的 ,选取 
的 视频 总 量 接近 2 万 . 
基于 此 ,CHN-DF 真实 视频 数据 量 达到 213187, 超 过 目前 公开 的 人 脸 视 频 防伪 检测 数据 集 的 真实 视频 数量 ， 
说 话 人 总 数 也 达到 2540. 此 外 ,CMLR 使 用 基于 HOG 的 人 脸 检 测 方法 ,再 利用 开源 平台 进行 人 脸 识别 和 对 
JF;CN-CVS 使 用 dlib 工具 包 对 每 个 视频 进行 面部 检测 ,删除 没有 人 脸 或 多 个 人 脸 的 视频 .因此 CHN-DF 视频 区 
域 已 固定 在 人 脸 部 分 . 
于 CHN-DF 数据 集中 真实 视频 基于 说 话 人 身份 进行 视频 内 容 划 分 ,数据 集中 训练 集 、 验 证 集 和 测试 集 的 
说 话 人 不 存在 重 欠 部 分 .因此 ,CHN-DF 数据 集 具 有 高 度 可 扩展 性 .可 以 很 容易 地 将 新 说 话 人 的 真实 视频 与 伪造 
视频 加 入 数据 集 ,以 增加 真实 和 深度 假 视 频 的 数量 ,并 确保 训练 集 、 验 证 集 和 测试 集 相互 独立 . 
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22 伪造 视频 


CHN-DF 的 伪造 视频 从 音频 与 视觉 信息 两 方面 采用 Mockingbird .coqui-TTS、Wav2Lip、SimSwap、FOMM、 
Motion-cos 以 及 FSGAN 总 计 7 种 深度 伪造 方法 , 履 盖 主流 的 深度 伪造 方式 .其 中 ,Simswap 和 FSGAN 是 基于 
部 交换 的 伪造 方法 ;FOMM 和 Motion-cos 是 基于 面部 重 现 的 伪造 方法 ;Mockingbird 和 coqui-TTS 是 基于 语音 克 
隆 的 伪造 方法 ;Wav2Lip 是 基于 层 语 同步 的 伪造 方法 .图 1 显示 了 所 选 视觉 伪造 方法 生成 的 示例 ,其 中 从 上 而 下 
的 每 一 行 视频 帧 为 依次 使 用 Wav2lip、SimSwap、FOMM、Motion-cos 和 FSGAN 创建 的 结果 .不 同方 法 伪造 视 
频数 量 分 布 情况 如 图 2 所 示 , 由 于 生成 的 伪造 视频 在 人 工 检 查 过 程 中 根据 伪造 效果 进行 了 筛选 ,因此 每 种 伪造 
方法 的 视频 数量 并 不 相等 ,但 CHN-DF 仍 保持 了 伪造 方法 数量 之 间 的 相对 平衡 .此 外 ,others 类 别 是 指 将 源 视频 


的 音频 替换 为 同一 子 集 (训练 集 、 验 证 集 或 测试 集 ) 下 其 他 视频 的 音频 后 生成 的 伪造 视频 . 
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REDE 等 :面向 人 脸 视 频 防伪 检测 的 大 规模 中 文 数据 评测 基准 


SV2TTS 的 基础 上 ,Mockingbird 引入 


EA 
语音 合 
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Encode), 然 后 根据 讲话 人 声音 和 音色 向 量 


克隆 . 


语 在 内 的 多 种 语言 能 


= 语音 驱动 
mes 视觉 驱 动 
EN Wav2lip 


图 2 CHN-DF H 


类 别 


FP 不 同方 法 伪造 视频 数量 分 布 


系统 ,对 训练 数据 集中 的 语音 进行 处 型 
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Mockingbird 
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Wav2lip 
SimSwap 
FOMM 
Mot ion-cos 
FSGAN 
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Mockingbird:Mockingbird23 用 于 中 文 实时 语音 克隆 ,通过 不 同 讲话 人 音频 信息 合成 虚假 音频 .在 
P 文 训练 数据 集 (aidatatang_200zh、magicdata、aishell3) 用 于 训 


,提取 讲话 人 的 声 


codui-TTS:coqui-TTSDC9 是 一 个 低 资 源 零 样本 文本 转 语 音 模 型 (Text-to-Speech,TTS)， 
力 .提供 了 包括 Tacotron?"!, Tacotron2P8 


音 提 取 音 色 向 量 (Speaker 
加 上 合成 器 (Synthesizer) 和 声 码 器 (Vocoder) 完 成 中 文 语音 


具有 合成 包括 汉 


,Glow-TTSB9I 在 内 的 多 种 文本 语音 规范 


模型 ,以 及 MelGAN[40,Multiband-MelGAN(41,GAN-TTSI[ 名 等 声 码 器 模型 .这 些 模 型 的 高 效 性 和 多 功 


能 性 使 得 Coqui-TTS 能 够 处 理 复杂 的 文本 到 语音 转换 任务 ,同时 保持 高 质量 的 语音 输出 . 
Wav2Lip: Wav2Lip?8l4 — SEF GAN 的 层 形 动作 迁移 算法 ,Wav2Lip 不 仅 可 以 基于 
匹配 的 层 形 同步 视频 ,还 可 以 直接 将 动态 的 视频 进行 
E 上 ,Wav2Lip 利用 
作 ,实现 生成 的 视频 人 物 口 型 与 输入 语音 同志 
人 脸 帧 和 对 应 的 语音 内 容 作为 输入 . 
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SimSwap:SimSwap 
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型 ”. 在 原理 


FOMM:FOMMC4 是 作者 通过 
像 生 成 模块 两 个 主要 模块 组 成 .根据 
的 帧 对 ,将 运动 编码 为 特定 于 运动 的 关键 点 位 移 和 局 部 仿 射 变换 的 组 合 ,进而 组 合唱 
图 来 重建 训练 视频 ,应 用 时 模型 将 源 图 


预先 训练 的 


1a 5 
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EA BEIM), EE BY EATER fi 
信息 转移 到 目标 视频 的 人 脸 上 ,此 外 使 用 弱 特 征 


性 .这 些 操作 使 得 模型 可 以 在 实现 通 
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ERRAR HH 


供 对 人 脸 区 域 的 五 段 、 
区 域 进 行 细 粒 度 的 面部 交换 . 
FSGAN:FSGANBC5 是 一 种 基于 对 抗 生 成 网 络 的 换 脸 模型 ,根据 目标 视频 和 源 视 频 能 够 实现 
面部 重 现 .模型 首先 根据 目标 人 脸 
部 的 缺失 部 分 


脸 


和 
填 


真 补 了 重新 绘制 的 脸 


作 , 从 而 实现 生成 关于 源 
Motion-cos:Motion-cosP 6 zi — FH H 
信息 ,依据 各 个 子 部 件 的 特征 图 对 目标 视频 进行 
TBR AF EE Hl Tay) 


LE o dmi 


标 对 再 现 结果 进行 
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采用 了 FSGAN 中 的 


像 人 脸 的 伪造 视频 . 


目标 视频 中 相 


监督 模 a 


[| 


H5 


标 语 百 


FE 级 别 上 将 源 


多 转换 ,实现 展 形 动作 与 输入 语音 
展 语 同步 检测 器 帮助 模型 根据 音频 学 习 嘴 
.为 了 捕捉 语音 的 时 间 上 下 文 ,该 模型 使 用 五 个 连续 
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片 中 人 脸 的 身 


匹配 的 视 
ESI 
的 


zm 


匹配 损失 ,该 损失 以 隐 式 方式 帮助 模型 保留 国 
j 部 交换 . 


自 监督 公式 来 解 厅 外 观 和 运动 信息 的 晶 , 模 型 由 运动 估计 模块 


似 对 象 的 运动 ,模型 通过 观察 从 同一 视频 中 提 


像 和 


HT pfi 


的 姿态 和 表情 重新 


将 完整 的 脸 部 与 


| 练 模型 ,CHN-DF 采用 了 


LN 


学 习 运动 的 特 


分 割 的 自 监督 深度 学 习 方法 ,从 人 脸 源 图 
逐 帧 伪造 ,实现 面部 交 ] 


标 视频 的 每 一 帧 配对 ,并 对 源 对 象 进 行 图 


像 动画 制 


像 中 提取 关键 点 
换 的 区 域 化 操作 .Motion-cos 提 


五 段 分 


绘制 源 视频 人 脸 


分 割 成 两 个 


标 进行 混合 ,从 


纲 的 过 程 中 ,模型 通过 Delaunay 三 角 训 分 选择 与 目标 人 脸 最 


j 创 造 出 最 终 的 结果 .在 再 
匹配 的 多 个 源 视频 人 脸 
加 权 平 均 , 这 个 过 程 使 得 模型 不 需要 为 每 个 新 源 视频 进行 大 量 的 调整 .CHN-DF 
机 部 交换 技术 . 


割 预 训练 模型 对 人 


加 


四 部 交换 
面部 区 域 ,同时 
1 部 


重心 


Wi Jf fs JH 


2.3 数据 集 描述 
2.3.1 数据 集 类 另 


使 用 上 述 深度 伪造 方法 ,CHN-DF 数 


视觉 -伪造 听觉 

CHN-DF 
真实 视觉 来 源 (VR) 
伪造 视觉 生成 (VP) 


(真实 视觉 -真实 听觉 (VRARg):VRAR 数据 源 自 


描述 


后 得 


Yi 


真实 听觉 来 源 (Am) 
数据 源 
SimSwap,FOMM,Motion-cos,FSGAN 


CN-CVS 


基于 视觉 与 听觉 分 为 4 个 类 别 :真实 视觉 - 
RAF)、 伪 造 视觉 -真实 听觉 (VrAr) 以 及 伪造 视觉 -伪造 听觉 (VFAR). 
表 2 CHN-DF 数据 集中 视觉 与 听觉 伪造 组 合 类 型 与 对 方 伪造 方法 


实 听觉 (VRAR)、 


yea WT it, AE MA) 
Mockingbird,coqui-TTS 
Wav2Lip,Vr X Ar 

与 CMLR, 从 CN-CVS 中 选择 Speech 模块 的 2529 


名 说 话 人 视频 ,CN-CVS/Speech 具有 大 量 的 说 话 人 和 更 加 复杂 多 变 的 环境 , 贴 合 现实 生活 中 对 话 场景 和 内 容 的 
复杂 性 ;从 CMLR 数据 集 筛选 近 2 万 个 11 位 主持 人 的 主持 视频 .按照 身份 对 出 镜 人 编号 ,VrAR 数据 总 量 达到 


213187 个 . 


(2) 真 实 视觉 -伪造 听觉 (VRAP:VRAF 视觉 上 保持 源 视频 的 真实 性 ,在 听觉 上 进行 音频 伪造 .如 表 2 所 示 , 在 
模型 coqui-TTS 与 基 
的 伪造 音频 .具体 地 ,将 源 视 频 说 话 人 的 文本 语句 


CHN-DF 数据 集中 采 
Mockingbird 生成 克隆 


成 基于 他 人 音频 克隆 的 


实 场景 是 


(3) 伪 造 视觉 


EA 


击 .VRAF 数 据 总 量 达到 


63070 个 . 


-真实 


] 低 资源 零 样本 TTS 


听觉 (VEAR):VEAR 视觉 上 进 


擅 造 音频 .将 伪造 音频 与 源 视 频 合 并 得 到 VRAF 类 别 视频 ,这 种 类 别 的 深度 伪造 可 能 的 现 


于 迁移 学 习 的 中 文 实时 语音 克隆 模型 
和 其 他 说 话 人 的 音频 作为 模型 输入 , 生 


个 人 通过 模仿 另 一 个 说 话 人 的 说 话 信息 来 进 


LIES 


因此 可 以 


来 训练 防御 语音 欺骗 攻 


行人 脸 伪造 ,视觉 


上 保持 源 音频 的 真实 性 .如 表 2 所 示 , 人 脸 伪 


造 通常 采用 面部 交换 和 
的 人 脸 进 行 


他 说 话 人 


面部 重 现 方法 ,在 


面部 交换 方法 上 采 


和 i 部 交换 .在 面 


WIT: ERA 


说 话 人 的 视频 作 
合并 得 到 VFAR 
ER DL TERT TR 

(4) 
又 使 用 
视频 合 # 


,因此 使 用 这 种 类 别 


了 Wav2lip( Jl, z& 2). 具 体 
;第 二 种 伪造 方式 为 将 
第 三 种 伪造 方式 为 对 VRAF 中 视频 数 ] 
的 整合 , 贴 合 现实 场景 中 视听 觉 


为 输入 , 实 


验证 集 或 测试 集 ) 下 ,这 


2.3.2 数据 集 属性 
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CHN-DF 数 


212900 个 ,CHN-DF 正 负 样本 平衡 . 负 样本 VRAF、VFAR 以 及 VFAF 的 数量 分 别 为 63070. 88888 以 及 60942 种 


岗 其 他 说 话 人 视频 中 的 
类 别 视频 .在 现实 场景 中 存在 攻 
的 深度 伪造 数据 可 以 
擅 造 视觉 -伪造 听觉 (VrAF):VFAF 既 包 含 人 脸 伪 造 又 包含 音频 伪造 ,结合 VrAr 与 VrAr 伪造 方法 的 同时 


H FOMM 和 Motion-cos 模型 ,将 源 视频 中 的 人 脸 帧 与 其 他 


| Simswap 和 FSGAN 模型 ,将 源 视频 中 的 人 脸 与 其 


面部 动作 


六 用 到 源 视频 人 脸 上 的 效果 .将 伪造 视频 与 源 音 频 


fF 者 通过 修改 他 人 的 面部 动作 或 交换 人 脸 来 塑造 一 个 并 不 存在 
FH o I ZI f 
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身份 其 诈 技术 .VrAR 数 据 总 量 达 到 88888 个 . 


时 长 相近 


BR 


的 伪造 音 视 频 合 


也 ,VFAF 包 含 三 种 伪造 方式 ,第 


种 伪造 方式 为 将 时 长 相近 的 伪造 音 视 频 进 行 音 


mp. 


之 后 采用 Wav2lip 进行 唇 形 动作 同步 , 即 “ 对 口 
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同时 伪造 的 复杂 场景 .VFAF 数据 总 量 达 到 60942 个 . 
值得 一 提 的 是 ,VRAF、VFAR 以 及 VFAF 中 伪造 视频 过 程 提 到 的 其 他 视频 与 源 视频 均 在 同一 子 集 (训练 身 
果 证 了 训练 集 、 验 证 集 和 测试 集 相互 独立 . 


动作 .VFAF 类 别 视频 是 对 VrRAF 与 YrAR 类别 视 频 


aur 
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据 集 包 含 426087 个 人 脸 视 频 ,说 话 人 总 数 达 到 2540 人 .其 中 真实 视频 213187 个 ,伪造 视频 


类 别 伪造 视频 ( 即 VRAF、VFAR 以 及 VFAF) 的 数量 近似 . 


根据 说 话 人 身份 ,按照 7:1:2 的 比例 将 CHN-DF 视频 划分 为 训练 集 (1778 位 说 话 人 的 350679 个 视频 )、 验 证 
集 (254 位 说 话 人 的 22685 个 视频 ) 和 测试 集 (508 位 说 话 人 的 52723 个 视频 ),CHN-DF 视频 时 长 分 布 如 医 


持续 时 间 在 0.36-355.58 秒 , 贴 合 现实 情况 


秒 ,其 中 98.75% 的 片段 小 于 20 $5,99.949611 
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3 ATA, 


视频 时 长 长 短 不 一 的 特点 ,平均 长 度 为 5.12 秒 .视频 时 长 集中 在 0-20 


的 片段 小 于 50 f. 
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图 3 CHN-DF 视频 时 长 分 布 


3 CHN-DF 基准 评测 


制作 人 脸 视频 防伪 检测 数据 集 的 最 终 目标 是 推动 研发 出 能 够 对 各 种 深度 伪造 类 型 与 方式 表现 良好 的 人 脸 
视频 防伪 检测 模型 ,人 脸 视频 防伪 检测 模型 性 能 好 坏 是 通过 测评 模型 在 人 脸 视 频 防伪 检测 数据 集 的 多 种 定量 
指标 体现 .在 本 节 中 将 介绍 CHN-DF 基准 评测 的 评估 方法 以 及 评价 指标 ;基于 代码 的 可 复 现 性 ,采用 8 种 多 模 态 
人 脸 视频 防伪 检测 领域 先进 方法 进行 的 全 面 基准 性 能 评估 ,以 此 来 展示 CHN-DF 数据 集 的 复杂 性 和 贴近 真实 
场景 水 平 ,同时 与 最 近 发 布 的 多 模 态 FakeAVCeleb 数据 集 进行 比较 .选择 此 数据 集 最 重要 的 原因 是 
FakeAVCeleb 是 目前 已 知 的 唯一 包含 详细 音 视 频 伪造 标注 的 多 模 态 人 脸 视 频 防 伪 检 测 数据 集 . 此 外 ,该 数据 集 
还 采用 了 丰富 的 造假 方法 ,在 多 模 态 人 脸 视频 防伪 检测 领域 是 被 广泛 接受 的 优秀 评测 基准 中 50. 
3.1 评估 方法 
在 CHN-DF 基准 评测 的 评估 方法 选择 中 ,按照 数据 集 包含 视觉 与 听觉 两 个 模 态 信息 的 特点 ,选择 基于 单 模 
态 模 型 检测 结果 集成 的 防伪 检测 方法 以 及 多 模 态 人 脸 视 频 防伪 检测 模型 进行 基准 评测 . 
3.1.1 集成 方法 
(HD)Meso-4:Afchar6523 等 人 提出 的 四 层 卷 积 网 络 ,是 一 种 基于 图 像 噪 声 中 段 信息 的 人 脸 伪 造 检 测算 法 .这 种 方 
法 有 效 解 决 了 图 像 噪声 减弱 和 高 层 语义 特征 难以 区 分 伪造 视频 帧 的 问题 .其 浅 层 结构 增强 了 对 中 等 和 大 尺度 
特征 的 敏感 度 ,提升 了 面部 特征 检测 的 能 力 .然而 ,这 也 带 来 了 网 络 难以 捕捉 更 深层 次 、 更 细微 特征 的 局 限 . 
(2)MesoInception-4: 同样 由 Afchar 等 53 提出 .该 模型 架构 的 灵感 来 自 于 InceptionNet53, 它 通过 用 
InceptionNet 的 模块 替换 第 一 层 卷 积 层 来 改进 Meso-4, 能 够 更 有 效 地 捕捉 不 同 尺 度 上 的 特征 .但 也 没 能 解决 浅 
层 网 络 结构 在 捕捉 深层 、 细 微 特征 方面 的 限制 . 
(3)Xception: 由 Chollet59 提 出 的 一 种 完全 基于 深度 可 分 离 卷 积 层 的 卷 积 神经 网 络 体系 结构 ,对 解 耦 通道 相 
关 性 和 空间 相关 性 进行 简化 推导 出 深度 可 分 离 卷 积 ,能 够 高 效 地 提取 图 像 和 视频 帧 中 的 复杂 特征 .其 复杂 的 网 
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3.3 基准 实验 与 结果 分 析 
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3.3.2 基准 实验 设 


为 了 CHN-DF 基准 评测 的 公平 性 ,CHN-DF 中 基准 人 脸 视 频 防伪 检测 模型 


个 MECC 特征 图 像 的 问题 .将 这 些 MFCC 图 像 作 为 输入 传递 给 模型 , 提 


XH sea 
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| FakeAV Celeb 相同 的 


模型 参数 .具体 地 ,对 每 种 方法 进行 了 50 次 近代 的 训练 ,使 用 了 EarlyStopping 机 制 , 其 中 的 patience 设置 为 10. 
采用 了 Adam 优化 器 ,学 习 率 为 105, 实 验 在 一 台 搭 载 Silver 4310 CPU 以 及 Nvidia A40 GPU 的 计算 机 上 运行 . 
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3.3.3 多 模 态 防伪 方法 对 比 实验 


法 中 ,使 用 硬 投票 (Hard-Voting) 和 软 投 票 (Soft-Voting) 机 制 对 音频 和 视频 防 


表 3 CHN-DF 数据 集 上 多 模 态 防伪 方法 对 比 实验 


CHN-DF 
Methods Year Acc. Precision Recall Fl-score 
Meso-4(Soft-Voting) 2021 0.5685 0.4754 0.4729 0.4741 
Meso-4(Hard-Voting) 2021 0.4996 0.5119 0.5096 0.4793 


Mesolnception-4(Soft-Voting) 2021 0.6455 0.7117 0.6541 0.6816 
MesoInception-4(Hard-Voting) 2021 0.5811 0.5823 0.5337 0.5569 


Acc. 


伪 模 型 进行 预测 结果 


FakeAVCeleb 


0.4593 0.5373 
0.4593 0.5373 
0.7287 0.7445 
0.7287 0.7445 
0.4394 0.2197 
0.4394 0.2197 
0.6740 0.6790 
0.5150 0.5000 
0.6900 0.7800 
0.8152 0.8377 
0.8371 0.8411 


Xception(Soft- Voting) 2021 0.4360 0.2686 0.5163 0.3533 
Xception(Hard- Voting) 2021 0.4360 0.2686 0.5163 0.3533 
Multimodal-2 2021 0.5020 0.2510 0.5000 0.3342 
CDCN 2021 0.5000 0.5000 0.5000 0.4678 
MDS 2020 0.5784 0.8571 0.4521 0.5919 
VFD 2022 0.6439 0.7113 0.6544 0.6816 
AVoiD-DF 2023 0.6457 0.7244 0.6785 0.7006 
本 文选 择 FakeAVCeleb 作为 对 比 数据 集 ,原因 如 1.2 所 述 ,在 基于 视觉 与 听觉 的 多 模 态 人 脸 视频 防伪 检测 
数据 集中 FakeAVCeleb 是 目前 已 知 唯一 公开 可 获得 的 同时 拥有 深度 伪造 音频 和 深度 伪造 视频 的 数据 集 .因此 
为 了 进行 面向 人 脸 视频 防伪 检测 的 基准 评测 模型 性 能 分 析 和 通过 实验 验证 
实 场景 水 平 , 将 所 选 方法 在 CHN-DF 与 FakeAVCeleb 上 进行 基准 评测 ,性 能 
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平 , 更 有 利于 推动 性 能 更 好 的 深度 防伪 检测 方法 研发 . 
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脸 视频 防伪 检测 模型 在 CHN-DF 
与 Recall 指标 ,以 及 分 别 适 用 于 正 负 样 
测 模型 在 CHN- 


DF 中 性 能 相 较 于 在 


Ef CHN-DF 数据 集 的 复杂 性 和 贴 


AVoiD-DF 在 CHN-DF 和 FakeAVCeleb 中 均 取 得 了 最 佳 性 能 结果 ,防伪 效果 最 优 .可 能 的 原因 是 AVoiD-DF 


二 准 人 脸 视 频 防伪 检测 模型 ,在 基于 视听 联合 学 习 模 块 引入 和 
祭 融合 . 相 较 于 其 他 多 模 态 方法 模 态 融合 结构 ,AVoiD-DF 中 输入 的 视觉 和 音 


道 馈送 ,每 个 通道 都 有 一 个 双向 交叉 注意 (BiCroAtb 模 块 ,之 
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FakeAVCeleb 


自 注意 
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内 在 相关 性 会 被 破坏 ,同时 CHN-DF 相 较 于 FakeAV Celeb 


此 AVoiD-DF 在 视听 伪造 信息 更 为 复杂 的 CHN-DF 中 面 对 VeAr 28 3125 d 
MesoInception-4 在 基于 集成 方法 的 人 脸 视频 防伪 检测 基准 评测 
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4 针对 伪造 视频 中 伪造 方法 只 能 合成 有 限 分 辨 率 的 人 脸 图 像 ; 


源 人 脸 的 配 
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的 多 模 态 联合 解码 MMD 中 ,使 用 MMD 


频 嵌 入 块 是 通过 两 个 并 


意 力 块 和 前 馈 层 .这 使 得 两 种 
模 态 之 间 具 备 更 好 的 信息 共享 与 联合 学 习 能 力 . 然 而 AVoiD-DF 在 CHN-DF 的 指标 结果 明显 低 于 在 
上 的 结果 ,可 能 的 原因 是 AVoiD-DF 作为 基于 视听 联合 学 习 的 人 
视觉 -伪造 听觉 (VFAR) 情 况 时 (如 Wav2Lip 将 动态 的 视频 进行 层 形 转换 ,实现 层 形 动作 与 输入 语音 匹配 的 视频 ) 
VeAF 中 采用 
居 


检测 方法 ,在 面 对 伪 造 


更 为 复杂 的 伪造 手段 ， 


对 指标 结果 较 低 ; 


4 中 防伪 效果 最 优 ,可 能 的 原因 是 


进行 仿 射 变 换 以 匹配 


这 一 视频 属性 ,使 用 变 体 inception. 模块 关注 仿 射 变换 中 扭 


曲面 
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区 域 和 周 目 


环境 的 分 辨 紊 不一致 


而 产生 的 伪 影 .然而 MesoInception-4 在 处 理 采 用 FOMM 和 Motion-cos 等 基于 面部 重 现 的 伪造 视频 时 ,由 于 面 
部 重 现 技术 并 不 仅 是 将 人 脸 区 域 进行 仿 射 变换 ,面部 重 现 更 注重 通过 保留 标 人 物 的 身份 来 应 | 源 人 物 的 特 
征 ,而 面部 交换 更 注重 在 两 个 图 像 之 间 进 行 面 部 特征 的 交换 .因此 面部 重 现 技术 产生 的 伪 影 并 不 等 同 于 面部 交 
换 过 程 中 产生 的 伪造 痕迹 ,MesoInception-4 在 处 理 通 过 FOMM 和 Motion-cos 生成 的 伪造 视频 存在 局 限 性 ,导致 
指标 结果 较 低 ; 

Multimodal-2 与 Xception 在 CHN-DF 和 FakeAVCeleb 中 指标 结果 较 低 ,在 CHN-DF 中 各 项 指标 结果 在 0.52 
以 下 ,造成 这 种 结果 的 一 个 可 能 原因 是 Multimodal-2 与 Xception 是 计算 机 视觉 领域 通用 分 类 模型 ,在 各 种 分 类 
任务 中 能 够 取得 良好 的 结果 ,但 可 能 是 由 于 其 预 训练 权重 和 特定 任务 之 间 的 领域 差异 ,而 不 一 定 适用 于 视频 数 
据 中 的 复杂 特征 和 动态 变化 . 另 一 方面 ， 于 人 脸 视频 防伪 检测 任务 涉及 到 更 丰富 的 信息 ,包括 面部 表情 、 姿势 
等 因素 ,这 可 能 导致 了 通用 分 类 模型 在 该 任务 上 的 性 能 不 佳 . 
此 外 ,在 面向 人 脸 视频 防伪 检测 的 基准 评测 模型 中 多 模 态 方法 优 于 集成 方法 的 性 能 结果 ,可 能 的 原因 是 相 
较 于 集成 方法 中 多 个 单 横 态 分 类 器 模型 组 成 整体 模型 的 思路 ,多 模 态 方法 在 处 理 人 脸 视频 伪造 数据 时 考虑 到 
视觉 与 听觉 之 间 的 相关 性 与 一 致 性 信息 .相对 于 单 模 态 (视觉 或 听 HO RUNI 伪造 方法 在 自 改 视觉 与 听觉 之 间 
相关 性 的 特征 时 难度 更 大 ,使 得 伪造 的 效果 更 易于 捕捉 ,所 以 视觉 与 听觉 之 间 的 相关 性 特征 能 够 为 人 脸 视 频 防 
伪 检 测 模 型 提供 更 明显 的 检测 特征 ,因此 在 处 理 具备 多 模 态 信息 的 人 脸 视频 伪造 数据 中 多 模 态 方法 防伪 检测 
效果 更 优 . 
3.3.4 跨 数据 集 防伪 方法 对 比 实验 

为 了 评估 CHN-DF 数据 集 的 质量 和 衡量 基准 人 脸 视 频 防伪 检测 模型 的 泛 化 性 能 ,进行 跨 数 据 集 防伪 方法 
对 比 实验 .实验 使 用 基准 模型 在 FakeAVCeleb 进行 训练 并 在 CHN-DF 上 进行 测试 .通过 在 FakeAVCeleb 上 进行 
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训练 ,模型 能 够 学 习 人 脸 伪 造 视频 的 数据 分 布 ,在 CHN-DF 上 进行 测试 能 够 提供 模型 在 与 训练 集 不 同 分 布 上 数 
据 中 的 性 能 表现 .有 助 于 验证 模型 在 面 对 未 知 数据 时 的 鲁 棒 性 和 泛 化 性 ,同时 在 FakeAVCeleb 上 的 训练 模型 与 
在 CHN-DF 上 的 训练 模型 的 测试 结果 对 比 也 可 评估 CHN-DF 数据 集 的 质量 . 
KA 跨 数据 集 防伪 方法 对 比 实验 
Methods Year Acc. Precision Recall Fl-score 
Meso-4(Soft-Voting) 2021 0.4007 0.3844 0.4998 0.4345 
Meso-4(Hard-Voting) 2021 0.4135 0.3321 0.4463 0.3808 
MesolInception-4(Soft-Voting) 2021 0.4117 0.4100 0.4133 0.4116 
MesolInception-4(Hard-Voting) 2021 0.4002 0.3911 0.4035 0.3972 
Xception(Soft- Voting) 2021 0.3971 0.2134 0.4299 0.2852 
Xception(Hard-Voting) 2021 0.3971 0.2134 0.4299 0.2852 
Multimodal-2 2021 0.4145 0.3423 0.3997 0.3687 
CDCN 2021 0.3784 0.3312 0.4521 0.3823 
MDS 2020 0.5223 0.6487 0.4033 0.4973 
VFD 2022 0.6011 0.5877 0.5301 0.5574 
AVoiD-DF 2023 0.5997 0.6003 0.4983 0.5445 


11 种 人 脸 视 频 防伪 检测 模型 在 以 FakeAV Celeb 为 训练 集 并 以 CHN-DF 为 测试 集 的 跨 数 据 集 防 伪 任 务 中 

各 项 指标 明显 降低 ,表明 模型 在 CHN-DF 中 面 对 了 更 复杂 和 更 具 挑 战 性 的 伪造 数据 ,由 此 进一步 验证 了 
CHN-DF 数据 集 的 复杂 性 和 贴近 真实 场景 水 平 . 

表 4 展示 了 跨 数据 集 防 伪 方 法 对 比 实验 结果 ,结合 表 3 在 CHN-DF 数据 集 多 模 态 防伪 方法 对 比 实验 结果 ， 
可 以 发 现 由 于 数据 集 之 间 数 据 的 来 源 不 同 ,在 跨 数 据 集 的 防伪 任务 中 11 种 人 脸 视频 防伪 检测 模型 性 能 指标 有 
明显 的 下 降 . 其 中 MesoInception-4 指标 结果 下 降 最 为 显著 ,可 能 的 原因 是 MesoInception-4 在 FakeAVCeleb H ik 
少 基于 面部 重 现 的 伪造 视频 的 训练 ,导致 通过 捕捉 伪 影 进行 视频 防伪 检测 的 局 限 更 加 明显 ;VFD 在 跨 数据 集 的 
防伪 任务 中 指标 虽 有 下 降 但 取得 最 优 的 防伪 效果 ,可 能 的 原因 是 VFD 的 微调 (fine-tane) 机 制 是 基于 预 训练 模型 
进行 微调 ,因此 可 以 快速 适应 新 的 任务 或 数据 集 ;Multimodal-2、Xception 以 及 MDS 在 跨 数据 集 的 防伪 任务 中 
指标 下 降幅 度 较 低 , 可 能 的 原因 是 Multimodal-2 与 Xception 作为 通用 分 类 模型 虽然 不 一 定 适用 于 视频 数据 ,但 
Multimodal-2 与 Xception 良好 的 泛 化 性 能 使 得 模型 在 跨 数 据 集 任务 中 指标 波动 幅度 降低 . 
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的 大 规模 中 文 数 据 评 测 基 准 ,发 布 了 全 球 首 个 面向 人 脸 视频 防伪 检测 的 大 规模 中 文 数 据 集 一 一 CHN-DE, 填 补 
人 脸 视 频 防 伪 检 测 数据 集 大 规模 中 文 数 据 的 空白 ,本 文 详细 介绍 了 构建 CHN-DF 数据 集 以 及 中 文 数据 评测 基 
准 的 流程 ,并 针对 主流 防伪 检测 方法 进行 了 对 比 实验 ,从 基准 评测 模型 性 能 、 跨 数据 集 泛 化 性 能 等 方面 分 析 了 
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在 AIGC 时 代 人 脸 视频 生成 领域 的 信息 存在 真实 性 验证 困难 的 环境 下 ,本 文 提出 了 面向 人 脸 视频 防伪 检测 
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视频 防伪 检测 方法 的 优 劣 .此 外 ,大 量 的 实验 也 验证 了 CHN-DF 数据 集 的 复杂 性 和 贴近 真实 场景 水 平 ， 
人 脸 视 频 防伪 检测 的 大 规模 中 文 数据 评测 基准 ,能 够 帮助 研究 人 员 构 建 性 能 更 为 优异 的 人 脸 视 频 防 
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型 ,成 为 未 来 人 脸 视 频 防伪 检测 领域 研究 的 基石 .同时 ,本 文 还 指出 了 中 文人 脸 视 频 防伪 检测 数据 集 以 
颇 防 伪 检 测评 测 基准 当前 面临 的 挑战 以 及 未 来 发 展 方向 ,希望 为 推动 人 脸 视频 防伪 检测 领域 技术 发 
的 视角 与 方向 . 
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